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摘 要 词 是 语言 的 基本 结构 单位 ， 对 词语 进行 切 分 是 语言 加 工 的 重要 步 又 。 口 语 语 流 中 的 切 分 线索 来 自 于 
语音 、 语 义 和 语 法 三 个 方面 。 语 音 线 索 包括 概率 信息 、 音 位 配 列 规则 和 韵律 信息 ,韵律 信息 中 还 包括 词 重音 、 
时 长 和 音 高 等 内 容 ， 这 些 线索 的 使 用 在 接触 语言 的 早期 阶段 就 逐渐 被 个 体 所 掌握 ,而 且 在 不 同 的 语言 背景 下 
有 一 定 的 特异 性 。 语法 和 语义 线索 属于 较 高 级 的 线索 机 制 ， 主 要 作用 于 词语 切 分 过 程 的 后 期 。 后 续 研究 应 从 
语言 的 毕生 发 展 和 语言 的 特异 性 两 个 方面 考察 口语 语言 加 工 中 的 词语 切 分 线索 。 
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1 引言 率 信息 、 音 位 配 列 规则 和 韵律 信息 三 个 方面 梳理 
相关 研究 。 


语言 单位 包括 语素 、 词 、 词 组 等 , 其中, 词 是 
最 小 的 能 独立 运用 的 音义 结合 体 ， 是 个 体 在 头脑 
中 存储 的 基本 单位 ( 张 融融， 杨 亦 鸣 , 2012)。 口 语 
语 流 是 随时 间 变 化 的 线性 结构 ,词语 切 分 过 程 中 ， 
词 和 词 之 间 没 有 清晰 可 靠 的 边界 , 不 像 文 本 阅读 
中 有 明确 的 空间 线索 (标点 符号 或 空格 ), 早期 的 
人 研究 往往 关注 语义 、 语 法 等 方面 的 线索 信息 , 但 
是 婴 幼 儿 在 习 得 语言 初期 并 不 具有 完备 的 语义 知 
识 和 语法 体系 , 那么 他 们 是 如 何 进 行 切 分 的 呢 ? 式 (Newport, 2016). 
可 以 猜想 , 语音 信息 可 能 是 重要 的 线索 。 男 一 方 2.1.1 婴 幼儿 的 研究 
人 在 口语 语 流 中 ， 概 率 信息 指 单词 内 音节 的 转 
从 语音 层面 探究 词语 的 切 分 线索 ,描绘 人 脑 词语 换 概率 高 于 单词 间 的 音节 ， 比 如 词组 pretty boy 中 ， 
切 分 的 内 在 过 程 做 然 成 为 了 当前 心理 学 的 研究 热 音节 re-ty 间 的 转换 概率 要 高 于 音节 ty-boy 间 ， 研 


21 概率 信息 

20 世纪 90 年 代 末 , 研究 者 提出 统计 学 习 
(statistical learning) 的 概念 ， 指 个 体 自觉 地 运算 刺 
激 间 的 转换 概率 (transitional probability，TP) 掌 握 
统计 规律 的 过 程 (Saffran, Aslin, & Newport, 1996; 
唐 洪 等 , 2015; Saffran & Kirkham, 2018)， 这 一 认 
知 过 程 也 被 认为 是 婴 幼 儿 和 成 人 在 语 流 中 切 分 词 
语 、 发 现 语法 分 类 甚至 是 习 得 句法 结构 的 重要 方 


和 -A LTS A. = Z HIE ar yE PrN 、 pa 
点 。 本 文 着 重 介绍 口语 加 工 中 词语 切 分 的 语音 线 。。 究 表明 刚 出 生 8 个 月 的 婴儿 就 已 经 具备 了 利用 这 
索 ， 随 后 介绍 语法 和 语义 线索 ,最 后 对 未 来 的 研 一 概率 信息 切 分 词语 的 能 力 (Aslin，Saffran， & 
究 提出 一 些 建议 。 Newport, 1998; Saffran, Aslin, et al., 1996; Saffran, 
2 词语 切 分 中 的 语音 线索 Aslin, & Newport，1996)。Saffran，Aslin 等 (1996) 


设计 了 4 个 由 3 个 音节 组 成 的 固定 单词 (upzro, golabu, 
本 部 分 内 容 聚 焦 词语 切 分 的 语音 线索 ， 从 概 。 piggku, padot), 这 些 单词 随机 相连 组 成 无 意义 音 


W EB (tupirogolabubidakupadotibidaku...... )。 在 完 


KAHI: 2017-12-27 整 单词 tupiro 中 ， 三 个 音节 是 固定 连接 的 ， ef] 
* 江 苏 高 校 优势 学 科 建 设 工程 资助 项 目 (PAPD) 资 助 。 之 间 的 转换 概率 为 1 (三 个 音节 均 为 tupiro 的 内 部 
通信 作者 : 梁 丹 丹 , E-mail: 14d233@sina.com 音节 ,同时 出 现 ), 但 在 跨 界 单词 rogola 中 , 前 两 
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个 音节 之 间 的 转换 概率 为 0.33 (单词 golabu 可 能 
出 现在 其 他 任意 三 个 单词 之 后 ), 后 两 个 音节 的 转 
换 概率 为 1， 因 此 跨 界 单词 rogola 中 ro 和 go 之 间 
的 转换 概率 较 小 ， 意 味 着 可 能 是 词语 边界 ， 所 有 


个 体 对 承载 概率 信息 的 语音 载体 有 着 不 同 的 偏好 
(Bonatti, Pefia, Nespor, & Mehler, 2005; Gomez, 
Mok, Ordin, Mehler, & Nespor, 2017). Bonatti 等 人 
(2005) 在 经 典 的 转换 概率 范式 基础 上 ， 分 别 在 元 


无 意义 音节 串 均 没有 重音 、 停 顿 等 线索 ， 只 在 转 
换 概率 上 有 所 区 分 。 实 验 分 为 学 习 阶 段 和 测试 阶 
段 ， 学 习 阶 段 让 婴儿 听 2 分 钟 的 无 意义 音节 串 ， 
测试 1 发 现 婴 儿 对 学 习 过 的 完整 单词 tupiro 注视 
时 间 短 ， 对 没 学 习 过 的 单词 tilado 注视 时 间 长 ; 
测试 2 发 现 婴 儿 对 学 习 过 的 完整 单词 tupiro 注视 
时 间 短 ， 对 学 习 过 的 跨 界 单词 rogola 注视 时 间 长 ， 
研究 者 认为 这 种 去 习惯 化 效应 是 因为 婴儿 以 转换 
概率 的 高 低 划分 词语 边界 ， 对 高 转换 概率 的 单词 
更 为 熟悉 ,注视 时 间 减 少 。 

概率 信息 在 词语 切 分 中 的 作用 也 受到 一 些 质 
BE, Estes (2012) 认 为 大 多 数 统计 学 习 研 究 都 是 实 
验 室 研 究 ， 而 且 实 验 材 料 为 人 工 语法 词 ， 这 一 学 
习 机 制 是 否 能 推广 到 自然 语言 环境 中 值得 商检 ; 
另外 ， 也 有 研究 者 认为 婴儿 识别 的 音节 串 只 是 根 
据 概率 信息 计算 出 来 的 音节 单元 ,并 非 是 具有 词 
汇 属 性 的 真实 单词 (Endress & Mehler, 2009; 
Perruchet & Poulin-Charronnat, 2012)。 一 些 研究 者 
通过 实验 在 一 定 程 度 上 反驳 了 以 上 质疑 比如 
Lew-Williams, Pelucchi 和 Saffran (2011) 以 意大利 
语 为 实验 材料 ， 发 现 8~10 个 月 的 婴儿 可 以 利用 转 
换 概 率 和 词汇 呈现 形式 来 切 分 词语 ; Erickson, 
Thiessen 和 Estes (2014) 发 现 8 个 月 大 的 婴儿 只 会 
将 高 转换 概率 的 音节 串 作 为 标签 来 对 物体 分 类 ， 
婴儿 的 这 种 分 类 能 力 被 认为 是 基于 真实 词汇 的 ， 
因此 研究 者 推断 婴儿 通过 概率 信息 切 分 出 来 的 音 
节 串 也 具备 一 定 的 词汇 属性 。 
2.1.2 成 人 的 研究 

相 比 于 婴 幼 儿 的 研究 , 成 人 的 研究 中 更 容易 
控制 额外 变量 ， 有 助 于 深入 分 析 概 率 信息 在 词语 
切 分 中 的 作用 。Saffran, Aslin 等 人 (1996) 的 研究 虽 
然 证 明 婴 儿 可 以 通过 音节 间 的 概率 信息 切 分 口语 
语 流 , 但 没有 细致 考察 概率 信息 的 载体 。 音 节 是 
我 们 直觉 上 最 容易 划分 出 来 的 最 小 语音 单位 , 一 
般 以 元 音 作 为 核心 ,辅音 在 元 音 前 面 或 后 面 ， 共 
组 成 4 种 基本 类 型 : (1)V, (2)C-V, (3)V-C, (4)C-V-C 
( 林 春 , 王 理 嘉 ，2013), 那么 概率 信息 的 载体 是 元 
音 、 辅 音 还 是 整个 音节 这 一 问题 并 没有 答案 。 近 
年 来 以 成 人 为 被 试 的 研究 发 现 ,不同 语言 背景 下 


音 和 辅音 层面 上 控制 音节 间 的 概率 信息 ,结果 发 
现 当 辅音 为 载体 时 ,法 语 被 试 能 够 更 好 地 利用 概 
率 信息 进行 词语 切 分 , 研究 者 认为 这 是 因为 在 印 
欧 语 系 中 辅音 对 单词 识别 的 作用 大 于 元 音 。 
Gomez 等 人 (2017) 以 粤语 母语 者 为 被 试 , 沿用 了 
Bonatti 等 (2005) 的 实验 范式 ， 首先 在 材料 中 保证 
了 音节 间 的 转换 概率 恒定 (音节 ge 后 接 音 节 du 或 
dy)， 然 后 分 别 改 变 元 音 间 的 概率 信息 ( 含 元 音 /w/ 
的 音节 后 接 含 元 音 /e/ 的 音节 的 概率 为 0.75， 接 含 
元 音 必 的 音节 的 概率 为 0.25) 和 辅音 间 的 概率 信息 
( 含 辅音 加 [的 音节 后 接 含 辅音 /的 音节 的 概率 为 
0.75， 接 含 辅音 人 /的 音节 的 概率 为 0.25), 结果 发 
现 ,， 相 比 于 辅音 条 件 ， 粤 语 母 语 者 在 元 音 条 件 下 
能 更 好 地 利用 概率 信息 切 分 词语 。 不 同 于 大 部 分 
印 欧 语系 语言 ， 以 汉语 普通 话 、 粤 语 和 越南 语 等 
为 代表 的 汉 藏 语系 语言 具有 声调 这 一 超 音 段 特征 
Gomez 等 人 (2017) 还 发 现 随 着 声调 信息 的 加 入 粤 
语 被 试 对 词语 切 分 的 准确 率 进 一 步 提 高 。 可 见 ， 
虽然 利用 概率 信息 切 分 词语 是 人 类 普遍 的 能 
但 在 不 同 语言 背景 中 表现 形式 并 不 相同 。 
2.2” 音 位 配 列 规 则 
每 种 语言 都 有 自己 的 语音 音 位 配 列 规则 
(phonotactics)， 符 合 配 列 规则 的 音 位 搭配 出 现 频 
率 高 ,不 符合 的 出 现 频 率 低 甚至 为 0， 比 如 在 英 
语 中 /my 就 是 高 频 辅 音 搭 配 ， 而 / yk /是 低频 辅音 
搭配 。 当 个 体 在 语 流 中 识别 到 不 可 能 同 处 于 一 个 
音节 的 两 个 音 位 时 , 会 倾向 认为 二 者 之 间 存 在 音 
节 边 界 ， 而 如 果 前 后 两 个 音节 分 别 是 单 音节 词 , 那 
么 在 切 分 音节 的 同时 就 完成 了 词语 的 切 分 (McQueen, 
1998; Suomi, McQueen, & Cutler, 1997; Tremblay 
& Spinelli，2013)。 在 荷兰 语 的 研究 中 ，McQueen 
(1998) 采 用 词语 指认 范式 ， 要 求 被 试 在 听 到 无 意 
义 双 音 节 中 的 真 词 时 迅速 报告 比如 在 无 意义 双 
音节 词 pil.vrem 和 pilv.rem "P, Bid WIA pil, 


但 是 前 者 辅音 W 和 分 别处 在 两 个 音节 中 ， 后 者 
辅音 WW 和 /处 在 同一 个 音节 内 。 结 果 发 现 ,被 试 在 


第 一 种 条 件 下 报告 真 词 的 反应 时 更 短 ， 准 确 率 更 
高 ， 研 究 者 指出 在 荷兰 话 中 辅音 W 和 Axw 不 能 处 于 
同一 音节 内 , 与 第 一 种 条 件 刺激 的 发 音 方式 相 匹 
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配 ， 被 试 在 听 到 双 音 节 词 时 更 容易 判断 两 个 音 位 
之 间 有 音节 边界 ， 进 而 完成 了 对 真 词 的 切 分 。 
紧张 性 和 松弛 性 是 普遍 存在 的 音 位 对 立 特征 ， 
既 可 以 表现 在 元 音 上 , 也 可 以 表现 在 辅音 上 ， 紧 
Jc È (tense vowel) 听 起 来 强 而 长 ， 松 元 音 (lax 
vowel) 听 起 来 短 而 弱 ( 王 理 嘉 ，1991)。 在 英语 中 ， 
紧 元 音 (如 /Ww/、/i:/) 可 以 作为 词尾 音 ， 而 松 元 音 (如 
/i/ 不 可 以 , Skoruppa, Nevins, Gillard 和 Rosen 
(2015) 发 现在 语音 片段 this is a /arzatev/ 中 ,个体 
倾向 将 其 切 分 成 this is a /mar /zater/ 而 不 是 this is 
a /narza/ /er 这 说 明 元 音 的 松紧 性 提供 了 必要 的 


虽然 大 多 数 单 词 词 重音 位 于 第 一 音节 (如 melody, 
polish, favorite) 但 也 可 能 位 于 其 他 音节 上 (如 begin, 
anecdotal)。Cutler 和 Carter (1987) 通 过 语料库 调 
查 发 现在 英语 的 实 义 词 中 ， 强 音节 开头 的 数量 是 
弱 音 节 开 头 数量 的 三 倍 ， 而 且 前 者 出 现 的 频率 也 
是 后 者 的 两 倍 ， 因 此 他 们 推断 英语 母语 者 会 通过 
词 重 音 确 定 词语 的 起 始 位 置 。Cutler 和 Norris 
(1988) 设 计 了 两 类 无 意义 音节 :mintayve Fil mintesh, 
前 者 由 两 个 完整 元 音 音节 组 成 ， 记 为 SS ( 强 强 ) 音 
节 ， 后 者 由 一 个 完整 元 音 音 节 和 一 个 半 元 音 音 节 
组 成 , 记 为 SW ( 强 弱 ) 音 节 ， 实 验 要 求 被 试 在 听 无 


线索 。 音 位 配 列 规则 可 以 看 作 是 音 位 间 、 音 节 间 
概率 信息 的 延伸 ， 暴露 在 语言 环境 下 的 个 体 可 以 
通过 它们 之 间 的 概率 信息 掌握 音节 与 音节 之 间 、 


意义 音节 的 同时 检测 真 词 (如 minp) 的 出 现 , 结果 
发 现 被 试 对 SS 音节 中 真 词 的 反应 时 间 显著 长 于 
SW 音节 ,这 可 能 是 因为 音节 mint 和 tayve 均 是 重 


词 与 词 之 间 的 边界 ， 进 而 内 化 为 语音 规则 ， 而 无 
需 特定 的 习 得 过 程 。 
23 ”韵律 信息 

语言 的 语音 结构 由 音 段 结构 和 超 音 段 结构 两 
部 分 组 成 ( 何 善 芬 , 1989)， 音 段 结构 就 是 上 文 提 到 
的 音节 ,也 指 其 内 部 的 元 音 和 辅音 , 词语 切 分 中 
的 概率 信息 和 音 位 配 列 规则 主要 作用 在 音 段 结构 
E; 超 音 段 特 征 包括 音 高 .强度 以 及 时 间 特 性 ， 由 
音 位 或 音 位 群 负 和 载 ( 杨 玉 芳 ，, WAE, 高 路 , 2006), 
相关 的 研究 表明 ,多 种 超 音 段 信息 也 可 以 作为 线 
索 帮 助 个 体 切 分 口语 语 流 。 在 韵律 音 系 学 中 , H 
律 特征 (语调 、 时 域 分 布 和 重音 ) 主 要 通过 超 音 段 特 
征 实现 ， 因 此 本 部 分 所 介绍 的 超 音 段 信息 也 可 以 
被 称 作 韵 律 信 息 。 
23.1 Wea 

一 段 语 流 中 各 音节 声音 响亮 程度 并 不 完全 相 
等 ,在 语 流 中 听 起 来 比 其 他 音节 突显 的 音节 称 为 
重音 音节 。 重 音 可 以 分 成 词汇 层面 的 词 重音 和 句 
子 层面 的 句 重音 或 重读 。 词 重音 有 词汇 属性 , A 
有 语法 和 词汇 意义 ,起 到 辨 义 作用 ,而 句 重 音 彰 
显 话语 组 织 的 突出 焦点 ， 具 有 语 用 功能 ( 何 善 芬 ， 
1989; 许 希 明 , PACH, 2016). Hyman (2009) 将 世 
界 语言 划分 为 重音 语言 和 声调 语言 ， 前 者 以 英语 
ARR, 带 有 词 层面 的 节律 特征 , 后 者 以 汉语 普 
通话 为 代表 , 带 有 词 层面 的 音 高 特征 。 相 关 的 研 
究 表明 ， 以 重音 语言 为 母语 的 个 体能 够 利用 词 重 
音 作 为 线索 切 分 语 流 。 

英语 是 自由 重音 语言 ， 单 音节 词 不 会 遇 到 重 
音 分 配 的 问题 ,多 音节 词 的 重音 分 配 位 置 不 固定 ， 


音 音节 ,二 者 会 竞争 辅音 /W/,， 进 而 干扰 对 真 词 
mint 的 识别 ,而 SW 音节 中 不 存在 竞争 关系 。 婴 
儿 的 研究 也 证 实 了 词 重音 作为 线索 对 切 分 词语 的 
作用 , Jusczyk, Houston 和 Newsome (1999) 采 用 转 
头 偏 好 范式 ， 考察 7.5 个 月 婴儿 的 音节 识别 能 力 ， 
结果 发 现 他 们 对 符合 英语 词 重 音 模式 (重音 为 第 
一 音节 ) 的 双 音 节 单 词 有 偏好 ， 而 对 于 不 符合 词 重 
音 模式 的 单词 没有 偏好 。 

虽然 词 重 音 可 以 作为 英语 词语 切 分 的 线索 ， 
但 是 这 一 线索 并 非 具 有 跨 语言 的 普遍 性 。 法 语词 
重音 形式 与 英语 不 同 AR eae Aa 
上 ( 林 春 , 王 理 嘉 ，2013)， 属 于 固定 重音 语言 ， 研 
究 发 现 法 语 母语 者 并 非 通过 重音 而 是 通过 音节 的 
完整 性 来 切 分 词语 (Mehler, Dommergues, Frauenfelder, 
& Segui, 1981); 而 在 同样 是 重音 语言 的 西班牙 语 
中 ,母语 者 在 切 分 词语 过 程 中 会 结合 音节 的 数量 
和 重音 两 方面 线索 (LaCross et al., 2016)。 
23.2 ” 音 高 和 时 长 信息 

韵律 结构 普遍 存在 于 所 有 语言 中 ,每 一 个 前 
律 结构 都 会 存在 韵律 边界 ,通常 伴随 语 段 末 音 段 
延长 、 无 声 段 以 及 相对 较 大 的 音 高 移动 ( 李 卫 君 ， 
杨 玉 芳 , 2010)。 研 究 指出 这 些 音 高 和 时 长 变化 在 
语音 于 义 词 的 切 分 过 程 中 起 着 消解 歧义 的 作用 
(Christophe, Peperkamp, Pallier, Block, & Mehler, 
2004; Gout, Christophe, & Morgan, 2004; Shatzman 
& McQueen, 2006), 在 Christophe 等 人 (2004) 以 法 
语 为 材料 的 实验 中 ， 目 标 词 可 以 和 后 面 单 词 的 首 
音节 (歧义 音节 ) 组 成 合乎 语义 的 竞争 词 , 但 是 目 
标 词 (chat) 和 歧义 音节 (gri) 或 者 处 在 韵律 短语 内 
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部 (如 [d'un chat grincheux]), 或 者 处 在 韵律 短语 
边界 处 (如 [le gros chat] [grimpait...]). 他 们 发 现 被 
试 对 目标 词 的 反应 情况 受到 韵律 边界 的 调节 ， 如 
目标 词 和 攻 义 音节 分 属于 不 同 的 韵律 短语 , 那 
韵律 边界 有 助 于 切 分 二 者 ， 避 免 形 成 竞争 词 干 
标 词 的 识别 。 

韵律 边界 对 词语 的 切 分 体现 在 音 高 和 时 长 两 
面 信息 的 共同 作用 上 , 那么 两 者 中 单独 一 个 因 
素 是 否 也 能 够 起 到 切 分 词语 的 作用 呢 ? Shatzman 
和 McQueen (2006) 采 用 跨 通道 语义 启动 范式 考察 
和 荷兰 语 Ze beeft wel eens pot gezegd 中 辅音 /s/ 的 时 
长 对 歧义 词组 的 切 分 影响 (eens pot, een spon。 结 
果 发 现 ， 当 辅音 /持续 时 间 较 短 时 ,被 试 更 早 地 


过 SSNs 
i 


母语 者 能 够 利用 时 长 线索 正确 切 分 音节 ， 即 词语 
切 分 过 程 受 到 语言 经 验 的 影响 。 不 过 ，Frost 等 人 
(2017) 的 研究 与 此 结论 完全 相反 ,他 们 考察 了 日 
语 母语 者 和 英语 母语 者 ， 发 现在 时 长 参数 下 ， 两 
组 被 试 的 回答 正确 率 相 当 ， 研 究 者 认为 抑 扬 - 扬 
抑 规律 对 词语 的 切 分 效应 是 一 般 性 的 认 知 机 制 
具有 路 语言 的 普遍 性 。 虽 然 两 个 研究 采用 的 实验 
范式 相同 ， 自 变量 和 因 变 量 指 标 也 基本 一 致 ， 但 
两 者 在 材料 设置 上 有 细微 差别 ,前 者 的 音节 呈现 
顺序 固定 , 后 者 的 音节 呈现 顺序 随机 变化 ,而 且 
后 者 的 作答 形式 为 迫 选 ,要求 被 试 在 两 个 音节 对 
中 选择 更 像 单词 的 一 个 , 这 可 能 是 造成 两 个 研究 
结果 相悖 的 原因 。 总 之 , 关于 时 长 、 音 高 等 声学 


对 目标 词 (yo) 对 应 的 图 片 进行 注视 ,这 是 因为 位 
于 词尾 (eens) 的 辅音 /s/ 的 时 长 要 短 于 位 于 词 首 
(spot) 的 情况 ， 因 此 被 试 将 较 短 的 /s/ 切 分 成 前 一 个 
单词 的 词尾 ， 进 而 对 目标 词 (po 加 工 更 快 , 除 此 之 
bh, 关于 抑 扬 - 扬 抑 规律 ITL，Iambic\Trochaic law) 
的 研究 也 提供 了 音 高 和 时 长 信息 是 如 何在 词语 切 
分 中 起 线索 作用 的 证 据 (Frost Monaghan, & 
Tatsumi, 2017; Langus et al., 2016)。 早 在 一 百 多 年 


信息 在 词语 切 分 中 作用 的 研究 刚刚 起 步 ， 在 研究 
范式 和 材料 上 都 有 不 完善 的 地 方 ， 还 需要 更 多 的 
研究 加 以 对 比 。 
2.3.3 ”韵律 特征 的 规律 性 

上 文 介绍 的 线索 信息 在 词语 切 分 过 程 中 大 多 
作用 在 目标 词 附近 ,可 以 看 作 是 个 体 利 用 即时 信 
息 对 口语 语 流 进行 切 分, 但 也 有 人 研究 发 现 当 个 体 
对 语 流 进 行 加 工时 ， 如 果 前 段 语 流 的 韵律 特征 (时 


前 ， 研 究 者 就 发 现 个 体 具 有 根据 强度 、 时 长 和 音 
高 等 声学 特征 将 声音 序列 进行 组 块 化 的 倾向 
(Bolton, 1894; Woodrow, 1909)。Hayes (1995) 提 出 
节奏 感知 的 抑 扬 - 扬 抑 规 律 (lambic\Trochaic 
Law): 在 强度 参数 上 , 个 体 对 节奏 感知 有 强 弱 形 
式 的 扬 抑 偏好 (后 续 人 研究 发 现 音 高 参数 与 强度 参 
数 规律 相同 ); 在 时 长 参数 上 , 个 体 对 节奏 有 短 长 
形式 的 抑 扬 偏好 ; 作者 进一步 指出 这 一 规律 不 仅 
仅 是 语言 的 结构 形式 ， 也 是 个 体 组 织 、 切 分 语言 
的 方式 。 近 年 来 的 实证 研究 将 焦点 放 在 抑 扬 - 扬 抑 
规律 对 词语 切 分 作用 的 跨 语言 特性 上 。Langus 等 
人 (2016) 以 意大利 语 、 土耳其 语 和 波斯 语 母语 者 为 
被 试 ， 以 重复 出 现 、 顺 序 固定 的 无 意义 音节 为 材 
料 (pa su tu ke ma vi bu go ne du)， 每 隔 一 个 音节 改 
变 音节 的 时 长 (180~400 ms) 或 基 频 F0 (180~400 
Hz), 熟悉 阶段 要 求 被 试 认真 听 语 音 材 料 ， 测试 阶 
段 给 被 试 呈现 音节 对 ,如 pa-su, 要求 判断 其 是 否 
刚刚 出 现 过 。 结 果 发 现在 音 高 参数 上 ,三 组 被 试 
成 绩 相 当 且 正确 率 较 高 (0.7~0.8)， 说 明 他 们 都 以 
扬 抑 形式 切 分 音节 ,能够 区 分 音节 对 pa-su 和 
su-tu; 但 是 在 时 长 参数 上 ， 意 大 利 母语 者 判断 的 
正确 率 显著 高 于 其 他 两 组 被 试 ， 说明 只 有 意大利 


长 、 音 高 ) 呈 规律 性 的 变化 , 那么 个 体会 以 相同 的 
变化 模式 切 分 后 续 语 流 (Brown, Dilley, & Tanenhaus, 
2012; Brown, Salverda, Dilley, & Tanenhaus, 2015; 
Dilley, & McAuley, 2008; Dilley, Mattys, & Vinke, 
2010). 

Dilley 和 McAuley (2008) 设 计 了 一 系列 由 8 
个 音节 组 成 的 单词 串 (skirmish princess side kick 
stand stil1)， 其 中 前 两 个 单词 为 重音 在 第 一 音节 的 
双 音 节 单 词 ， 后 面 4 个 单 音节 单词 可 以 组 成 多 种 
音节 形式 的 单词 (sidekick standstill, side kickstand 
sti11)。 考 察 音 高 线索 时 , 将 前 两 个 单词 (skirmish 
和 princess) 的 基 频 F0 设置 成 由 高 到 低 (270~280 
Hz 到 170~180 Hz) 或 相反 的 变化 趋势 (如 图 1), 其 
中 单 音节 条 件 中 (图 1 第 一 行 ) 第 五 个 音节 (side) 的 
F0 由 高 到 低 (270~280 Hz 到 170~180 Hz)， 双 音节 
条 件 中 (图 1 第 二 行 ) 第 五 个 音节 (side) 的 FO 为 低 
(170~180 Hz)， 两 种 条 件 下 最 后 三 个 音节 的 FO 保 
持 一 致 。 实 验 任务 要 求 被 试 在 听 到 单词 串 后 报告 
他 们 听 到 的 最 后 一 个 单词 ， 结 果 发 现在 单 音节 条 
件 下 ,被 试 会 按照 "高低 高 低 ” 的 组 合 规律 切 分 单 
词 , 将 kick FU stand 听 成 一 个 合成 词 kickstand, iz 
后 报告 单 音 节 单 词 still; 然而 在 双 音 节 条 件 下 ， 
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被 试 更 多 地 报告 双 音节 单词 standstill。 


7 HT ew TR TR PHO 
MERV NY WW LAY 
2 央 、 
H: H H à H 
ps 
ff oie 


图 1 实验 材料 示意 图 
(资料 来 源 : Dilley & McAuley, 2008) 


语 速 通 常 被 定义 为 单位 时 间 内 听 到 的 音 段 或 
音节 的 数量 (Reinisch，2016), 语 速 快意 味 着 每 个 
音节 的 时 长 短 , 语 速 慢 意 味 着 每 个 音节 的 时 长 长 ， 
因此 , 语 速 可 以 被 看 作 是 音节 时 长 的 一 种 表现 形 
式 。 相 关 的 研究 表明 , 语 速 也 会 对 目标 词 的 切 分 
产生 影响 (Baese-Berk et al., 2014; Dilley & Pitt, 
2010; Morrill, Baese-Berk, Heffner, & Dilley, 2015; 
Morrill, Dilley, McAuley, & Pitt, 2014), #4 
Deena doesn’t have any leisure or time 中 ,通过 
PSOLA 软件 调整 语句 前 段 音 节 串 的 语 速 (正常 语 
速 ，1.9 倍 正常 语 速 和 0.6 倍 正常 语 速 ), ARAM 
当 目 标 词 or 前 面 的 单词 语 速 较 慢 时 ， 被 试 倾向 于 
报告 没有 听 到 目标 词 or (leisure time), 而 语 速 较 
快 时 , 被 试 倾向 于 报告 听 到 目标 词 or (leisure or 
time)。 人 研究 者 推断 较 慢 的 语 速 中 ,被 试 期 待 音节 
的 时 长 较 长 ， 单词 leisure 与 or 协同 发 音 导 致 被 试 
感知 不 到 目标 词 or (Dilley & Pitt, 2010)。 在 跨 语 
言 的 研究 中 , Lai M Dilly (2016) 采 用 相同 的 实验 范 
式 , ROUTED RR) PONTE — ETE BLE, 
音节 yil 的 识别 也 受到 语 速 的 影响 ; 而 且 即 使 过 
滤 掉 语义 信息 只 保留 基 频 信息 ， 目 标 词 远 端的 韵 
律 特征 依旧 可 以 影响 词语 切 分 的 结果 (Dilley et al., 
2010)。 
口语 词语 切 分 过 程 中 ,语音 范畴 提供 的 线索 
大 致 可 以 分 为 音 段 线索 和 韵律 线索 两 类 ， 虽 然 线 
索 载体 和 作用 方式 都 不 同 , 但 是 两 类 线索 均 是 个 
体 在 接触 语言 早期 就 能 够 习 得 的 , 尤其 是 已 有 研 
究 证 实 个 体 在 1 岁 以 内 就 可 以 利用 概率 信息 和 词 
重音 信息 切 分 词语 ; 尽管 抑 扬 - 扬 抑 规 律 对 词语 
切 分 的 线索 作用 只 得 到 成 人 研究 的 支持 , 但 是 相 


关 研 究 已 经 表明 个 体 在 出 生 伊始 就 具备 抑 扬 或 扬 
抑 偏 好 (Abboub, Nazzi, & Gervain, 2016)， 可 以 设 
想 婴 幼 儿 在 切 分 词语 时 会 综合 使 用 音 段 和 韵律 线 
KoA, 语音 切 分 是 语音 合成 的 逆向 过 程 ， 现 有 
的 研究 成 果 可 以 为 增强 合成 语音 的 表现 力 和 自然 
度 提供 帮助 ( 李 勇 ， 魏 否 ， 王 柳 渝 , 2017)。 


3 词语 切 分 中 的 语法 和 语义 线索 


相 比 于 语音 线索 , 语法 和 语义 层面 的 信息 对 
词语 切 分 影响 的 研究 较 少 ， 而 且 考 虑 到 这 二 者 均 
是 较 高 级 的 语言 知识 ,因此 研究 对 象 主要 是 成 人 。 
3.1 语法 线索 

Cole, Jakimik 和 Cooper (1980) 采 用 错误 发 音 
IT HEE (listening for mispronunciations task) 
语法 线索 在 词语 切 分 中 的 作用 ， 发 现 语 流 前 段 的 
语法 结构 能 够 提示 被 试 后 面 的 词语 形式 ， 比 如 he 
just hated 结构 提示 被 试 后 面 为 doing 形式 ， 因 此 
在 听 到 错误 辅音 和 (正确 形式 为 forgetting， 错 误 
形式 为 forketting) 时 , 被 试 可 以 迅速 报告 错误 发 音 ， 
而 he was noted 结构 提示 被 试 后 面 为 for doing 形 
式 , 因此 被 试听 到 错误 辅音 /KW 时 ， 还 要 进一步 排 
除 其 他 可 能 。Mattys, Melhorn 和 White (2007) 考 察 
了 英语 主 谓 一 致 原则 对 语音 歧义 词 切 分 的 影响 ， 
实验 包括 3 种 听觉 材料 ， 中 性 词组 (take spins, 
takes pins)、 单 数 主语 句子 (That woman takes pins, 
That woman take spins) 和 复数 主语 句子 (Those 
women takes pins, Those women take spins), 在 每 
一 个 试 次 中 ， 先 旦 现 视觉 目标 词 (spins 或 pins), 
随后 呈现 听觉 词组 或 句子 ， 要 求 被 试 尽快 判断 听 
觉 材料 中 是 和 否 包括 视觉 目标 词 。 结 果 发 现 ,在 中 
性 词组 条 件 中 出 现 了 一 致 性 效应 ， 即 当 目 标 词 与 
听觉 刺激 一 致 时 (spins 和 take spins, pins 和 takes 
pins), 被 试 的 反应 时 要 短 于 二 者 不 一 致 时 (spins 
和 takes pins, pins 和 take spins); 但 在 复数 主语 句 
子 条 件 下 ,被 试 反应 的 一 致 性 效应 消失 , 研究 者 
认为 复数 条 件 下 句子 的 主语 Those women 导致 被 
试 期 待 听觉 刺激 take spins 的 出 现 ， 因 此 即使 目标 
词 pins 和 语句 中 的 单词 Those women takes pins 一 
致 对 目标 词 的 切 分 也 会 受到 语法 的 抑制 。 

近年 来 ,一些 研究 者 试图 从 脑 神经 活动 的 角 
度 揭 示 个 体 切 分 词语 的 内 在 机 制 。 Ding, Lucia, 
Zhang, Tian 和 Poeppel (2016) 采 用 脑 磁 图 技术 ， 向 
被 试 呈现 没有 韵律 信息 且 均 由 单 音节 单词 组 成 的 
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PRM AF GERA A, white cars need gas), 
SER BIR 4 BK UT BFE A TAIL E AY tal 2 ZL, 
white can MA AGTA ETARA, Kip Re 
会 出 现 较 明显 的 电磁 频谱 反应 , 研究 者 将 其 称 为 
大 脑 皮层 的 “神经 锁定 ”(neuro entrainment) 现 象 ， 
背 于 此 他 们 推断 个 体能 够 以 语法 知识 切 分 语 流 ， 
并 建构 语义 表征 。 
3.2 ”语义 线索 

索 绪 尔 (De Saussure & Baskin, 1916) 在 《普通 
语言 学 教程 》 书 中 指出 要 通过 音节 的 意义 对 语 流 
进行 切 分 ， 从 而 保证 被 切 分 的 音节 有 对 应 的 实体 ， 
比如 ,法 语音 节 串 sizlapra ARE WAP WX si-z-la-pra 
(如 果 我 拿 走 它 ) 和 si-ž-l-aprà (如 果 我 掌握 它 ) 两 
种 。 虽 然 索 绪 尔 的 设想 较为 粗糙 ， 没 有 得 到 实验 
证 据 的 支持 , 但 随 着 语言 知识 的 增长 , 个体 对 词 
语 的 切 分 必然 受到 语义 的 限制 。Norris, McQueen 
和 Culter (1995) 提 出 口语 词语 切 分 的 可 能 性 限制 
原则 (Possible-Word Constraint, PWC), 认为 在 口 
语词 语 加 工 中 个 体 头 脑 的 候选 词语 必须 能 够 解释 
语 流 中 的 所 有 音 位 ， 只 有 这 样 才能 完成 词语 识别 ， 
进而 完成 词语 切 分 。 在 研究 中 , Norris, McQueen, 
Cutler 和 Butterfield (1997) 要 求 被 试 在 听 到 音节 串 
的 同时 识别 真 词 ， 结 果 发 现在 音节 串 fapple 中 对 
Hin] apple 的 识别 比 在 音节 串 vuffapple 中 更 加 困 
难 ， 这 是 因为 音 位 无 法 单独 构成 一 个 单词 ,不 
利于 切 分 音节 串 , 而 vuf 构成 单词 的 可 能 性 较 大 ， 
有 利于 切 分 音节 串 。 

近年 来 ， 视 听 跨 通道 词语 启动 范式 普遍 被 使 
用 在 词语 切 分 的 研究 中 (White, Mattys, & Wiget, 
2012)。White 等 人 (2012) 设 计 了 强 语义 关联 和 弱 
语义 关联 的 词组 (oil tanker Fil seal tanker), 并 从 模 
拟 对 话 中 切 分 出 真实 词组 作为 实验 材料 。 实 验 过 
程 中 , 首先 呈现 听觉 词组 作为 启动 刺激 ， 随 后 呈 
现 视觉 目标 词 ， 要 求 被 试 判 断 目 标 词 是 否 为 真实 
单词 ， 视 觉 目 标 词 包括 三 种 情况 : 与 探测 词组 的 
结尾 词 相同 、 与 探测 词组 无 关 和 非 词 。 结 果 发 现 
在 强 语义 相关 的 探测 条 件 下 被 试 对 与 探测 词组 结 
尾 相同 的 视觉 单词 判断 更 快 ， 这 说 明 强 语义 探测 
刺激 具有 启动 效应 ,加 快 了 对 目标 词 tanker 的 切 分 。 


4 多 种 线索 的 交互 作用 


在 实际 的 口语 加 工 中 ， 切 分 词语 是 个 极其 复 
杂 的 过 程 ， 受 到 多 种 线索 的 协同 (竞争 ) 作 用 ， 


些 研究 考察 了 韵律 特征 (重音 )、 音 位 规则 、 语义 和 
语法 等 线索 的 相对 权重 (Babineau, Shi, & Achim, 
2017; Heffner, Dilley, McAuley, & Pitt, 2013; 
Mattys, 2004)。 在 法 语 连 音 (French liaison) 的 研究 
中 , Babineau 等 (2017) 发 现 句 法 规则 对 连 音 的 切 分 
作用 最 大 ， 而 语音 线索 只 起 辅助 作用 ; 另 一 方面 ， 
环境 背景 和 被 试 的 策略 也 会 影响 词语 切 分 过 程 
(Mattys, White, & Melhorn, 2005; Morrill et al., 
2015). Mattys 等 人 (2005) 的 研究 结果 发 现 , 在 安 
静 环 境 下 语义 的 影响 权重 最 大 ， 随 后 是 词汇 信息 
和 音 位 规则 ， 而 重音 的 线索 作用 最 小 ,但 在 噪声 
环境 中 韵律 特征 等 低层 级 线索 的 作用 变 大 。 

通过 行为 学 实验 可 以 判断 个 体 对 不 同 线索 的 
依仗 程度 , 但 是 不 能 探究 个 体 利用 多 种 线索 的 时 
间 进 程 ， 大 量 事件 相关 电位 的 研究 证 实在 词语 切 
分 过 程 中 , 语音 线索 的 作用 是 即时 的 , 不 受 高 级 
线索 的 影响 ， 而 语义 、 语 法 线索 的 作用 时 间 主 要 
位 于 整合 语义 的 最 后 阶段 (Steinhauer,，Alter, & 
Friederici, 1999; SKE, PhAVE, J Ze, 2013). 
在 Steinhauer 等 (1999) 以 德语 为 材料 的 研究 中 ， 句 
子 的 每 一 个 韵律 短语 边界 都 会 引起 被 试 项 叶 脑 区 
的 活动 , 出现 中 止 正 漂移 的 脑 电 成 分 (closure 
positive shift，CPS)， 而 如 果 韵 律 线索 切 分 的 句子 
结构 与 句法 结构 矛盾 ， 还 会 出 现 一 个 双向 的 
N400-P600 成 分 (biphasic N400-P600)。 张 辉 等 人 
(2013) 以 相同 的 实验 范式 考察 汉语 母语 者 对 四 字 
成 语 材 料 的 切 分 情况 ,实验 过 程 中 向 被 试 呈现 两 
种 朗读 模式 的 成 语 (2+2, 1+3)， 其 中 每 种 朗读 模式 
中 一 半 是 符合 成 语句 法 结构 的 ( 度 癌 / 巷 驴 M 
FER), FENIE BCEA, SORE) o 
结果 发 现 韵 律 节奏 主 效应 显著 , 无 论 材 料 是 否 符 
合 句 法 模式 ， 只 要 以 “1+3” 节 奏 朗 读 时 ， 都 会 激发 
被 试 双向 的 N400-P600 成分， 而 以 “2+2” 节 奏 朗 读 
则 不 会 出 现 此 成 分 。 这 说 明 个 体 在 运用 韵律 信息 
切 分 语 流 时 有 一 定 的 独立 性 ， 切 分 早期 并 不 受到 
语义 、 语 法 等 高 级 线索 的 干扰 。 


5 小 结 与 展望 


本 文系 统 地 梳理 了 语音 、 语 法 和 语义 线索 对 
口语 词语 切 分 的 作用 , 近年 来 的 研究 一 方面 集中 
在 婴 幼 儿 词 语 切 分 的 线索 机 制 上 ， 另 一 方面 聚焦 
于 成 人 是 如 何 综合 利用 多 种 线索 进行 词语 切 分 的 ， 
笔者 认为 目前 的 研究 仍 有 不 足 之 处 , 可 以 从 以 下 
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两 个 方面 丰富 、 扩 展 。 
51 ”从 毕生 发 展 角度 考察 词语 切 分 线索 

语言 发 展会 历经 个 体 从 出 生 到 死亡 的 所 有 阶 
段 ， 目 前 的 研究 主要 集中 在 成 人 口语 词语 切 分 上 ， 
婴 幼 儿 的 研究 才刚 刚 起 步 。 一 直 以 来 ， 婴 幼儿 是 
如 何 掌握 词语 这 一 问题 始终 困扰 心理 学 家 和 语言 
学 家 , 除了 本 文 提 到 的 概率 信息 外 是 否 还 有 其 他 
线索 呢 ? 一 些 研究 发 现 婴 幼儿 对 词语 的 习 得 受到 
他 们 接触 词语 的 频率 (Ambridge，Kidd，Rowland， 
& Theakston, 2015), 、 时 间 分 布 、 空 间 分 布 和 文本 
环境 (Roy, Frank, DeCamp, Miller, & Roy, 2015) 的 
影响 ; 语料库 的 调查 也 发 现 婴 儿 所 接触 的 语 料 中 
有 9% 是 单个 单词 (single word)， 出现 频率 较 高 的 
是 come, go, up 和 down 等 (Ambridge & Lieven, 
2011)， 因 此 可 以 猜想 婴儿 首先 要 掌握 单个 单词 ， 
随后 以 此 作为 “据点 ” 切 分 词组 和 句子 ,进而 掌握 
新 词 , 但 这 一 假设 仍 需 要 更 多 实验 证 据 的 支持 。 
除 此 之 外 , 语言 加 工 的 老化 研究 也 是 近期 兴起 的 


那么 这 种 双 音 节 倾 向 是 否 是 汉语 母语 者 在 语音 层 
面 上 切 分 语 流 的 线索 呢 ? 这 有 待 于 进一步 考证 。 
另 一 方面 ,汉语 没有 明显 的 语法 形态 ， 同 音字 数 
量 多 , 这 导致 了 汉语 中 存在 大 量 的 同音 异 构 形 式 ， 
比如 懈 统 这 一 结构 ， 既 可 以 表示 动 宾 含 义 炒 饭 这 
一 动作 ,也 可 以 表示 偏 正 含义 炒饭 这 一 实物 ,再 
比如 结构 处 淡 妨 奉天 志 鸡 好 也 存在 歧义 ， 可 以 表 
示 小 张 师傅 本 人 ,也 可 以 指 代 小 张 的 师傅 , 今后 
的 研究 可 以 发 掘 韵律 信息 在 此 类 结构 中 的 切 分 作用 。 

词语 切 分 是 语言 加 工 研 究 的 根本 问题 ,口语 
状态 下 的 词语 切 分 是 自然 交际 中 的 关键 环节 ， 未 
来 应 更 广泛 地 从 不 同 线索 、 不 同 视角 、 不 同 语言 
展开 对 这 一 问题 的 探讨 ， 不 但 可 以 揭示 出 某 种 具 
体 语言 中 口语 加 工时 的 词语 切 分 过 程 ， 而 且 可 以 
在 此 基础 上 得 出 具有 普遍 性 的 口语 词语 切 分 模型 。 
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Word segmentation cues in the process of spoken language 


YU Wenbo; LIANG Dandan 
(School of Chinese Language and Culture, Nanjing Normal University, Nanjing 210097, China) 


Abstract: Words are generally considered as the basic unit of language processing. Hence word segmentation is 
a vital step for language comprehension. In speech processing, cues for word segmentation may be 
phonological, grammatical or semantic. Phonological cues can be further classified as statistic, phonotactic 
and prosodic, while prosodic information involves stress, duration and pitch. Phonological cues are 
generally acquired at the initial stage of language learning, and they differ as the linguistic environment 
changes. Semantic and grammatical knowledge provide high-level cues which constrains word segmentation 
at later stage. It is suggested that future research focus on the trajectory of segmentation cues in a lifespan 
and the specificity of language in the process of word segmentation. 
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